Meta-reinforcement learning via orbitofrontal cortex | Nature (2023)
Ryoma Hattori, Nathan G. Hedrick, Anant Jain, Shuqi Chen, Hanjia You, Mariko Hattori, Jun-Hyeok Choi, Byung Kook Lim, Ryohei Yasuda & Takaki Komiyama
https://doi.org/10.1038/s41593-023-01485-3
hl.icon
我々は何か新しいものを学習するときでも、昔の経験を活かしてうまく学習することができる
Naa_tsure.iconプログラミングに慣れていると、新しいプログラミング言語が発表されても素早く学習することができたりする
このメタ学習(Meta Learning)は強化学習(Reinforcement Learning; RL)への適用も研究されている
メタ強化学習(Meta RL)
メタ強化学習(Meta RL)の実装として、異なる時間スケールごとに以下のメカニズムを想定することができる
遅い時間スケール:シナプス可塑性(Synaptic plasticity)
早い時間スケール:神経活動のリカレントダイナミクス
Naa_tsure.iconシナプスの強度が変化→ネットワークのダイナミクスが変化
しかし、実際の動物の脳内で異なる時間スケールの学習がおこなわれているかは不明
そこで、この研究では深層強化学習(Deep RL)とマウス(mouse)の脳を対象にこれを検証した
Reversal Learning task
orbitofrontal cortex (OFC)
ロジスティック回帰(logistic regression)